Proces učenja koji proizlazi kao odgovor na vizualnu spoznaju okoline polazna je odrednica brojnih istraživanja iz područja robotike te umjetne inteligencije. Proces planiranja djelovanja autonomnog robota nad neuređenim skupom objekata obrađen je u ovom radu koristeći principe pojačanog učenja. Korištene su Metode Privremenih Razlika uz primjenu linearnih baznih funkcija za aproksimaciju vrijednosne funkcije stanja zbog prevelikog broja diskretnih stanja u kojim se sustav može naći. Cilj je pronaći optimalan slijed akcija kojima agent (robot) premješta predmete dok ne postigne unaprijed definirano ciljno stanje. Algoritam je podijeljen u dva dijela. U prvom dijelu cilj je naučiti parametre kako bi mogli pravilno aproksimirati Q funkciju, d...